맨위로가기 타임라인 바로가기

광학 문자 인식

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
타임라인 바로가기

1. 개요

광학 문자 인식(OCR)은 스캔한 문서나 이미지 속의 문자를 인식하여 텍스트 데이터로 변환하는 기술이다. 1928년 독일에서 시작된 OCR 기술은 전신 기술 및 시각 장애인을 위한 읽기 장치 개발과 관련되어 발전했다. 초기에는 패턴 매칭 방식을 사용했으며, 1950년대에는 상업적으로 활용되기 시작하여 신용 카드, 우편물, 공문서 등 다양한 분야에서 데이터 입력 자동화에 기여했다. 현재는 딥러닝 기술을 활용한 OCR 소프트웨어가 개발되어 정확도를 높이고 있으며, 데이터 입력, 자동 번호판 인식, 시각 장애인 보조 기술 등 다양한 분야에서 활용되고 있다. OCR 기술은 유니코드 표준에도 포함되어 있으며, 특수 글꼴 및 콤 필드, 크라우드소싱 등 다양한 방법으로 정확도를 개선하려는 노력이 이루어지고 있다.

더 읽어볼만한 페이지

  • 광학 문자 인식 - 자동 번호판 인식
    자동 번호판 인식은 이미지 처리 및 광학 문자 인식 기술을 활용하여 자동차 번호판의 문자와 숫자를 자동으로 인식하는 기술로, 교통 단속, 보안, 전자 요금 징수 등 다양한 분야에서 활용되지만 개인정보 침해, 시스템 오류, 기술 오용 등의 문제점도 존재하여 기술적, 제도적 개선이 요구된다.
  • 광학 문자 인식 - 광학 마크 인식
    광학 마크 인식(OMR)은 광학적으로 마크 유무를 감지하여 데이터를 입력하는 기술로, 시험 채점, 설문 조사 등에 활용되며 OMR 소프트웨어 발전을 통해 데이터 처리가 빨라지고 정확해지고 있다.
  • 인공지능의 응용 - 가상 비서
    가상 비서는 음성 또는 텍스트 입력을 해석하여 정보 제공, 일정 관리, 기기 제어 등 다양한 작업을 수행하는 소프트웨어 에이전트로서, 시리, 알렉사, 구글 어시스턴트와 같은 다양한 형태로 발전해 왔으며, 챗GPT와 같은 생성형 AI 기반 가상 비서의 등장과 함께 발전하고 있지만 개인 정보 보호와 같은 과제도 존재한다.
  • 인공지능의 응용 - 질의 응답
    질의응답 시스템은 자연어 질문을 이해하고 답변을 생성하며, 질문 유형과 사용 기술에 따라 분류되고, 읽기 이해 기반 또는 사전 지식 기반으로 작동하며, 대규모 언어 모델과 다양한 아키텍처 발전에 힘입어 복잡한 질문에 대한 답변과 다양한 분야에 활용이 가능해졌다.
광학 문자 인식
개요
종류문자 인식
분야패턴 인식, 인공지능, 컴퓨터 비전
사용데이터 항목
수표 처리
데이터 마이닝
문서 디지털화
번역
광학 문자 인식 (OCR) 시스템
다른 이름텍스트 인식
역사
초기 개발1914년: Emanuel Goldberg, 기계적 통계 장치 개발
1929년: Gustav Tauschek, 특허 출원
발전1950년대: David Shepard, 상업용 OCR 시스템 개발
1970년대: Ray Kurzweil, omni-font OCR 기술 개발
기술
단계전처리
문자 분할
문자 인식
후처리
전처리이미지 품질 향상 (이진화, 잡음 제거, 기울기 보정)
문자 분할단어 및 문자 분리
문자 인식패턴 매칭 또는 특징 추출 사용
후처리문맥 및 통계 정보 활용, 정확도 향상
방법
패턴 매칭저장된 글리프와 비교
특징 추출선, 고리, 방향과 같은 특징 식별
머신 러닝신경망 및 딥 러닝 모델 사용
응용 분야
문서 처리종이 문서 디지털화 및 편집 가능한 텍스트로 변환
자동 데이터 입력양식 및 송장에서 데이터 추출
접근성시각 장애인을 위한 텍스트 음성 변환
번역이미지에서 텍스트 추출 후 번역
언어 지원
지원 언어다양한 언어 지원 (영어, 중국어, 한국어, 일본어 등)
과제 및 제한 사항
이미지 품질낮은 품질의 이미지 또는 스캔은 정확도에 영향
글꼴 변형다양한 글꼴 및 스타일은 문제 발생 가능
복잡한 레이아웃복잡한 문서 레이아웃은 처리 어려움
손글씨 인식손글씨 인식은 여전히 어려운 과제

2. 역사

OCR 기술은 1928년 독일의 G. Taushek가 특허를 등록하면서 시작되었다. 그는 미리 준비된 몇 개의 표준 패턴 문자와 입력 문자를 비교하여 가장 유사한 것을 해당 문자로 선정하는 패턴 매칭 기법을 이용했다.[77]

1950년, 미국 국가 안보국(AFSA)의 전신)의 암호 해독자 데이비드 H. 셰퍼드는 인쇄된 문서를 컴퓨터가 처리할 수 있는 형식으로 변환하는 기계 "Gismo"를 만들고, 1953년 특허를 취득했다. Gismo는 영어 알파벳 23글자를 읽을 수 있었고, 모스 부호와 악보를 읽을 수 있었으며, 활자 페이지를 읽어 프린터로 복제할 수 있었다. 셰퍼드는 이후 회사를 설립하여 세계 최초의 몇몇 상용 OCR 시스템을 출하했다. Gismo와 IMR 시스템은 단순한 문자 매칭이 아닌 이미지 분석을 했고, 몇몇 서체를 인식할 수 있었다. Gismo는 이미지 속 문자의 위치를 정확하게 맞출 필요가 있었지만, IMR 시스템에서는 스캔 영역의 어느 문자인지 상관없이 인식할 수 있어 실용적이었다.[46]

최초의 상용 시스템은 1955년 리더스 다이제스트사에 납품되어 판매 보고서를 컴퓨터에 입력하는 데 사용되었다. 스탠다드 오일은 캘리포니아주에서 신용 카드의 문자를 읽기 위해 사용했고, 다른 석유 회사들도 이를 따랐다. IMR이 1950년대 후반에 판매한 다른 시스템으로는 전화 회사의 청구서 판독 장치와 미국 공군의 텔레타이프용 페이지 스캐너 등이 있다. IBM 등은 후에 셰퍼드로부터 OCR 특허의 라이선스를 제공받았다.[43]

1965년경, 리더스 다이제스트와 RCA는 잡지 광고 쿠폰의 시리얼 번호를 읽는 OCR 장치를 공동 개발했다. 이 기술은 트랜스 월드 항공에서 항공 티켓 판독에도 사용되었다. RCA는 이를 제품화하여 보험 회사 등이 채용했다.

미국 우정 공사는 1965년부터 제이콥 라비노우가 개발한 기술을 토대로 OCR 머신을 사용하고 있다. 유럽에서 OCR을 최초로 채택한 것은 영국의 우체국이었다. 영국에서는 1965년, 우편 저금에 해당하는 내셔널 지로가 OCR을 사용한 자동화를 했다. 캐나다 우체국은 1971년부터 OCR을 사용하고 있다. 한편, 일본에서는 한자 판독이 어려워 1968년 7월 1일에 일본의 우편 번호가 도입되었고, 손으로 쓴 숫자인 우편 번호를 OCR 시스템으로 읽어 정렬했다. 1998년 우편 번호 7자리화 이후에는 OCR로 읽은 뒤 바코드를 인쇄하게 되었다.

2. 1. 초기 역사

1914년, 에마누엘 골드버그는 문자를 읽어 표준 전신 코드로 변환하는 기계를 개발했다.[3][4][44] 같은 시기, 에드먼드 에드워드 푸르니에 달베는 인쇄된 페이지 위를 움직여 특정 문자나 글자에 해당하는 음을 생성하는 휴대용 스캐너인 옵토폰을 개발했다.[5]

1920년대 후반부터 1930년대에 걸쳐, 에마누엘 골드버그는 광학 코드 인식 시스템을 사용하여 마이크로필름 아카이브를 검색하기 위한 "통계 기계"를 개발했다. 1931년에는 이 발명에 대한 미국 특허(번호 1,838,389)를 받았다. 이 특허는 IBM이 인수했다.

2. 2. 대한민국 OCR 역사

1990년대 초반, 한글 문자 인식 소프트웨어가 실험실 수준으로 개발되어 일반에 소개되었다. 연산 처리 능력이 뛰어난 워크스테이션급에서 동작되던 것들이 개인용 컴퓨터의 처리 능력이 업그레이드되면서 1990년대 중반에 PC용 OCR들이 시장에 속속 나타나기 시작했다.[77]

최근 네이버 Clova에서 OCR 서비스를 오픈했으며, 네이버 클라우드 플랫폼 콘솔에서 Gateway API를 통해 이용 가능하다. OCR 챌린지인 'ICDAR Robust Reading Competition'에서 2019년 4개 분야를 석권, 정확도와 기술력을 인정받았다고 한다.

2. 3. 시각 장애인 지원

1974년, 레이 커즈와일은 Kurzweil Computer Products, Inc.를 설립하고, 모든 서체를 읽을 수 있는 OCR 개발을 시작했다.[47] 커즈와일은 CCD 이미지 스캐너음성 합성 기술을 결합하여 시각 장애인용 읽기 기계를 만들었다. 1976년 1월 13일, 제품 완성 발표가 이루어졌다. 1978년, Kurzweil Computer Products는 OCR 소프트웨어 판매를 시작했다. 최초의 고객은 렉시스넥시스로, 뉴스 등의 문서를 데이터베이스에 입력하는 데 사용했다. 2년 후, 커즈와일은 회사를 제록스에 매각했다. 이후 제록스는 해당 부문을 Scansoft로 분사시켰고, Scansoft는 뉘앙스 커뮤니케이션즈와 합병했다.[48]

2. 4. 현대 기술 발전

2000년대에는 OCR이 클라우드 컴퓨팅 환경에서 서비스(WebOCR)로 제공되기 시작했고, 스마트폰에서 외국어 표지판의 실시간 번역과 같은 모바일 애플리케이션으로 활용되었다.[7][8] 스마트 글래스의 출현으로, OCR은 장치의 카메라를 사용하여 캡처한 텍스트를 추출하는 인터넷 연결 모바일 장치 애플리케이션에서 사용될 수 있게 되었다. 내장된 OCR 기능을 갖추지 않은 이러한 장치는 일반적으로 OCR API를 사용하여 장치에서 캡처한 이미지 파일에서 텍스트를 추출한다.[7][8] OCR API는 추출된 텍스트와 함께 원래 이미지에서 감지된 텍스트의 위치에 대한 정보를 장치 앱으로 다시 전송하여 추가 처리(텍스트 음성 변환 등) 또는 표시할 수 있다.

라틴 문자, 키릴 문자, 아랍 문자, 히브리 문자, 인도 문자, 벵골 문자(방글라), 데바나가리 문자, 타밀 문자, 중국 문자, 일본 문자 및 한국 문자를 포함한 대부분의 일반적인 문자 체계에 다양한 상업용 및 오픈 소스 OCR 시스템을 사용할 수 있다.

3. OCR 소프트웨어

4. OCR 기술 종류


  • 광학 문자 인식(OCR): 타자기 텍스트를 대상으로 하며, 한 번에 하나의 글리프 또는 문자를 인식한다.
  • 광학 단어 인식: 타자기 텍스트를 대상으로 하며, 한 번에 단어 하나씩 인식한다. (띄어쓰기를 단어 구분 기호로 사용하는 언어에 적용) 일반적으로 "OCR"이라고 부른다.
  • 지능형 문자 인식(ICR): 손으로 쓴 인쇄체 또는 필기체 텍스트를 대상으로 하며, 한 번에 하나의 글리프 또는 문자를 인식하며, 일반적으로 기계 학습이 사용된다.
  • 지능형 단어 인식(IWR): 손으로 쓴 인쇄체 또는 필기체 텍스트를 대상으로 하며, 한 번에 단어 하나씩 인식한다. 이는 특히 필기체에서 글리프가 분리되지 않는 언어에 유용하다.

5. OCR 작동 방식

OCR(광학 문자 인식)은 정적 문서를 분석하는 오프라인 프로세스이다. 타자기 텍스트를 대상으로 하는 광학 문자 인식은 한 번에 하나의 글리프 또는 문자를 인식하며, 광학 단어 인식은 한 번에 단어 하나씩 인식한다. 광학 단어 인식은 일반적으로 "OCR"이라고 불린다.

손으로 쓴 인쇄체나 필기체 텍스트를 대상으로 할 때는 지능형 문자 인식(ICR) 또는 지능형 단어 인식(IWR)을 사용한다. ICR은 한 번에 하나의 글리프 또는 문자를, IWR은 한 번에 단어 하나씩 인식하며, 주로 기계 학습이 사용된다. IWR은 특히 필기체에서 글리프가 분리되지 않는 언어에 유용하다.

온라인 OCR API 서비스를 제공하는 클라우드 기반 서비스도 있다. 필기 움직임 분석은 필기 인식의 입력으로 사용될 수 있는데[14], 글리프와 단어의 모양뿐만 아니라 세그먼트가 그려지는 순서, 방향, 펜을 내려놓고 들어올리는 패턴 등 움직임을 포착하여 정확도를 높인다. 이 기술은 "온라인 문자 인식", "동적 문자 인식", "실시간 문자 인식", "지능형 문자 인식" 등으로도 알려져 있다.

5. 1. 전처리

광학 문자 인식(OCR) 소프트웨어는 성공적인 인식을 위해 이미지를 전처리한다.[15] 이를 위해 다음과 같은 기술들이 사용된다:

  • 기울기 보정: 문서가 스캔될 때 제대로 정렬되지 않았다면, 텍스트 줄을 완벽하게 수평 또는 수직으로 만들기 위해 문서를 시계 방향 또는 반시계 방향으로 몇 도 기울인다.
  • 점 제거: 양수 및 음수 점을 제거하고 가장자리를 부드럽게 한다.
  • 이진화: 이미지를 컬러 또는 그레이스케일에서 흑백(이진 이미지)으로 변환한다. 이 작업은 텍스트(또는 다른 원하는 이미지 구성 요소)를 배경에서 분리하는 간단한 방법이다.[16] 대부분의 상업용 인식 알고리즘은 이진 이미지에서만 작동하므로 이진화 작업이 필요하다.[17] 이진화의 효율성은 문자 인식 품질에 상당한 영향을 미치며, 주어진 입력 이미지 유형에 사용되는 이진화 방법을 신중하게 결정해야 한다.[18][19]
  • 선 제거: 글리프가 아닌 상자와 선을 제거한다.
  • 문서 레이아웃 분석 (구역 설정): 열, 단락, 캡션 등을 별개의 블록으로 식별한다. 특히 다중 열 레이아웃 및 표에서 중요하다.
  • 선 및 단어 감지: 단어와 문자 모양의 기준선을 설정하고, 필요에 따라 단어를 분리한다.
  • 스크립트 인식: 다국어 문서에서 스크립트는 단어 수준에서 변경될 수 있으므로, 특정 스크립트를 처리하기 위해 올바른 OCR을 호출하기 전에 스크립트를 식별해야 한다.[20]
  • 문자 분리 (세분화): 문자별 OCR의 경우, 이미지 아티팩트로 인해 연결된 여러 문자를 분리해야 한다. 반대로, 여러 조각으로 분리된 단일 문자는 연결해야 한다.
  • 종횡비 및 척도 정규화[21]


고정폭 글꼴의 분할은 수직 격자선이 검은색 영역과 가장 적게 교차하는 위치를 기반으로 이미지를 균일한 격자에 정렬하여 비교적 간단하게 수행할 수 있다. 비례 글꼴의 경우, 문자와 문자 사이의 공백이 단어 사이의 공백보다 클 수 있고, 수직선이 둘 이상의 문자와 교차할 수 있기 때문에 더 정교한 기술이 필요하다.[25]

5. 2. 텍스트 인식

OCR 알고리즘에는 크게 두 가지 기본 유형이 있다.[22]

  • '''매트릭스 매칭''': 픽셀 단위로 이미지를 저장된 글리프와 비교하는 방식이다. "패턴 매칭", "패턴 인식", 또는 "이미지 상관관계"라고도 한다. 입력 글리프가 이미지의 나머지 부분에서 올바르게 분리되어 있고, 저장된 글리프가 유사한 글꼴과 동일한 크기여야 한다는 점에 의존한다. 타자된 텍스트에 가장 적합하며 새로운 글꼴이 나타날 때는 잘 작동하지 않는다. 초기 물리적 광전관 기반 OCR이 직접 구현한 기술이다.
  • '''특징 추출''': 글리프를 선, 폐쇄 루프, 선 방향 및 선 교차점과 같은 "특징"으로 분해한다. 추출된 특징은 표현의 차원을 줄이고 인식 프로세스를 계산적으로 효율적으로 만든다. 이러한 특징은 하나 이상의 글리프 프로토타입으로 축소될 수 있는 문자의 추상적인 벡터와 같은 표현과 비교된다. 컴퓨터 비전에서 특징 감지에 대한 일반적인 기술은 "지능형" 필기 인식 및 대부분의 최신 OCR 소프트웨어에서 일반적으로 사용되는 이 유형의 OCR에 적용할 수 있다.[23] K-최근접 이웃 알고리즘과 같은 최근접 이웃 분류기는 이미지 특징을 저장된 글리프 특징과 비교하여 가장 가까운 일치를 선택하는 데 사용된다.[24]


CuneiForm 및 Tesseract와 같은 소프트웨어는 문자 인식을 위해 투 패스 방식을 사용한다. 두 번째 패스는 적응형 인식이라고 하며, 첫 번째 패스에서 높은 신뢰도로 인식된 문자 모양을 사용하여 두 번째 패스에서 나머지 문자를 더 잘 인식한다. 이것은 글꼴이 왜곡된(예: 흐릿하거나 희미한) 특이한 글꼴이나 저품질 스캔에 유리하다.[25]

OCRopus 및 Tesseract와 같은 최신 OCR 소프트웨어는 단일 문자에 집중하는 대신 전체 텍스트 줄을 인식하도록 훈련된 인공 신경망을 사용한다.

5. 3. 후처리

OCR의 정확도는 출력물을 어휘집(문서에 나타날 수 있는 단어 목록)으로 제한하면 높일 수 있다.[15] 예를 들어, 영어의 모든 단어나 특정 분야의 보다 기술적인 어휘집이 될 수 있다. 이 기술은 문서에 고유 명사와 같이 어휘집에 없는 단어가 포함된 경우 문제가 될 수 있다. 테서랙트(Tesseract)는 정확도 향상을 위해 문자 분할 단계에 영향을 주기 위해 사전을 사용한다.[25]

근접 이웃 분석(Near-neighbor analysis)은 특정 단어가 함께 나타나는 경우가 많다는 점에 주목하여 공기(co-occurrence) 빈도를 사용하여 오류를 수정할 수 있다.[28] 예를 들어, "워싱턴 D.C."는 일반적으로 "워싱턴 DOC"보다 영어에서 훨씬 더 흔하다.

스캔되는 언어의 문법에 대한 지식은 단어가 동사인지 명사인지 판단하는 데 도움이 될 수 있으며, 예를 들어 정확성을 높일 수 있다.

레벤슈타인 거리(Levenshtein Distance) 알고리즘은 OCR API의 결과를 더욱 최적화하기 위해 OCR 후처리에도 사용되었다.[29]

6. 응용 분야

OCR 기술은 다양한 분야에서 활용되고 있으며, 그 예는 다음과 같다.


  • 데이터 입력: 수표, 여권, 송장, 은행 명세서, 영수증 등 다양한 문서의 정보를 자동으로 입력하는 데 사용된다.
  • 자동 번호판 인식: 주차 관리, 교통량 측정, 과속 단속 등 다양한 분야에서 활용된다.
  • 공항: 여권 인식 및 정보 추출을 자동화하여 출입국 절차를 간소화한다.
  • 보험: 보험 문서에서 주요 정보를 자동으로 추출하여 업무 효율성을 높인다.
  • 교통 표지판 인식: 자율주행 자동차의 핵심 기술 중 하나로, 교통 표지판을 인식하여 안전 운행을 돕는다.
  • 명함 관리: 명함 정보를 자동으로 인식하여 연락처 목록에 추가한다.
  • 문서 디지털화: 인쇄된 문서를 텍스트 형태로 변환하여 보관 및 검색을 용이하게 한다. 프로젝트 구텐베르크구글 도서와 같은 프로젝트에서 활용된다.
  • 필기 인식: 펜 컴퓨팅 환경에서 사용자의 필기를 실시간으로 인식하여 컴퓨터를 제어한다.
  • CAPTCHA 해독: CAPTCHA 봇 방지 시스템을 무력화하거나 테스트하는 데 사용되기도 한다. (이는 OCR 방지를 위해 설계된 시스템이다.)[51][52][53]
  • 시각 장애인 보조: 시각 장애인이나 저시력 사용자를 위한 보조 기술로 활용되어 텍스트를 음성으로 변환해준다.
  • 차량 설계: 차량 설계 변경에 따라 데이터베이스에서 적합한 CAD 이미지를 식별하여 지침을 작성한다.
  • 검색 가능한 PDF: 스캔한 문서를 검색 가능한 PDF로 변환한다.


OCR 엔진은 특정 유형의 입력을 보다 효율적으로 처리할 수 있도록 발전해왔다. 예를 들어, 애플리케이션 고유의 어휘, 비즈니스 규칙, 표준 표현, 컬러 이미지 정보 등을 활용하여 정확도를 향상시키는 "애플리케이션 지향 OCR" 또는 "맞춤형 OCR" 전략이 사용된다. 이러한 전략은 차량 번호판, 청구서, 스크린샷, ID 카드, 운전 면허증, 자동차 제조업 분야 등에서 활용된다.

7. 정확도

타자된 라틴 문자 텍스트의 인식은 선명한 이미지를 사용할 수 있는 경우에도 100% 정확하지 않다. 19세기와 20세기 초 신문 페이지의 인식을 기반으로 한 연구에 따르면 상업용 OCR 소프트웨어의 문자별 OCR 정확도는 81%에서 99%까지 다양했다.[36] 전체 정확도는 사람의 검토 또는 데이터 사전 인증을 통해 얻을 수 있다. 손글씨, 필기체 인식 및 기타 스크립트(특히 한 글자에 획이 많은 동아시아 언어 문자)의 인쇄된 텍스트 인식은 여전히 활발한 연구 대상이다. MNIST 데이터베이스는 손으로 쓴 숫자를 인식하는 시스템의 능력을 테스트하는 데 일반적으로 사용된다.

정확도 비율은 여러 가지 방법으로 측정할 수 있으며, 측정 방법에 따라 보고된 정확도 비율에 큰 영향을 미칠 수 있다. 예를 들어, 소프트웨어가 존재하지 않는 단어를 찾도록 수정하기 위해 단어 컨텍스트(단어의 어휘)를 사용하지 않으면, 문자 오류율이 1%(99% 정확도)인 경우 각 전체 단어가 잘못된 문자가 없이 인식되었는지 여부를 기준으로 측정을 하면 오류율이 5% 이상으로 발생할 수 있다.[37] 신경망 기반 필기 인식 솔루션에서 충분한 크기의 데이터 세트를 사용하는 것이 중요하다. 반면에 자연스러운 데이터 세트를 생성하는 것은 매우 복잡하고 시간이 오래 걸린다.[38]

오래된 텍스트를 디지털화하는 데 내재된 어려움의 예는 OCR이 "long s"와 "f" 문자를 구별할 수 없다는 것이다.[39][34]

손으로 인쇄된 텍스트를 즉시 인식하는 웹 기반 OCR 시스템은 최근 몇 년간 상업 제품으로 널리 알려지게 되었다. 깔끔하고 깨끗하게 손으로 인쇄된 문자에 대한 정확도 비율은 펜 컴퓨팅 소프트웨어로 80%에서 90%까지 달성할 수 있지만, 해당 정확도 비율은 여전히 페이지당 수십 개의 오류로 이어지므로 이 기술은 매우 제한적인 응용 분야에서만 유용하다.

필기체 텍스트 인식은 활발한 연구 분야이며, 손으로 인쇄된 텍스트보다 인식률이 더 낮다. 컨텍스트 또는 문법 정보를 사용하지 않고 일반적인 필기체 스크립트의 더 높은 인식률은 불가능할 것이다. 예를 들어, 개별 문자를 구문 분석하는 것보다 사전에서 전체 단어를 인식하는 것이 더 쉽다. 수표의 ''금액'' 줄(항상 쓰여진 숫자)을 읽는 것은 작은 사전을 사용하면 인식률을 크게 높일 수 있는 예이다. 개별 필기체 문자의 모양 자체는 모든 손으로 쓴 필기체 스크립트를 정확하게(98% 이상) 인식할 만큼 충분한 정보를 포함하지 않는다.

대부분의 프로그램에서는 사용자가 "신뢰도"를 설정할 수 있다. 즉, 소프트웨어가 원하는 정확도 수준을 달성하지 못하면 수동 검토를 위해 사용자에게 알릴 수 있다.

OCR 스캔으로 인해 발생하는 오류는 때때로 오타라는 용어와 유사하게 ''scanno''라고 한다.[40][41]

8. 한계 및 해결 방안

광학 문자 인식(OCR)은 여러 한계를 가지며, 이를 극복하기 위한 다양한 방법들이 연구 및 활용되고 있다.

8. 1. 해결 방안

문자 인식을 개선하기 위해 OCR 알고리즘 외에 다른 방법으로 해결하기 위한 몇 가지 기술이 있다.

  • 특수 글꼴: OCR-A, OCR-B, MICR 글꼴과 같이 크기, 간격, 문자 모양이 정확하게 지정된 특수 글꼴을 사용하면 전사 정확도를 높일 수 있다. 은행 수표 처리에 주로 사용된다. 몇몇 주요 OCR 엔진은 Arial, Times New Roman과 같은 대중적인 글꼴은 인식하지만, 이러한 특수 글꼴은 인식하지 못한다. Google Tesseract는 새로운 글꼴을 인식하도록 훈련하여 OCR-A, OCR-B, MICR 글꼴을 인식할 수 있다.[31]
  • 콤 필드(Comb Field): 사람이 읽기 쉽도록 미리 인쇄된 상자로, 상자당 하나의 글리프를 쓰도록 한다.[28] 이 상자는 OCR 시스템에서 쉽게 제거할 수 있는 드롭아웃 색상으로 인쇄되는 경우가 많다.[28]
  • 특수 글리프: Palm OS는 Graffiti라는 특수 글리프 세트를 사용했다. 이는 인쇄된 영어 문자와 유사하지만, 제한된 하드웨어에서 쉽게 인식할 수 있도록 단순화되거나 수정되었다. 사용자는 이러한 특수 글리프를 쓰는 방법을 배워야 했다.
  • 영역 기반 OCR: 이미지를 문서의 특정 부분으로 제한하는 방법으로, "템플릿 OCR"이라고도 한다.
  • 크라우드소싱: 아마존 메커니컬 터크, reCAPTCHA와 같이 크라우드소싱을 통해 문자를 인식하도록 하면 컴퓨터 기반 OCR보다 이미지 인식 정확도를 높일 수 있다. 핀란드 국립 도서관은 사용자가 표준화된 ALTO 형식으로 OCR된 텍스트를 수정할 수 있는 온라인 인터페이스를 개발했다.[32]

9. 유니코드

OCR을 지원하는 문자는 1993년 6월, 버전 1.1이 출시되면서 유니코드 표준에 추가되었다.

이러한 문자 중 일부는 MICR, OCR-A 또는 OCR-B에 특정한 글꼴에서 매핑된다.

광학 문자 인식
0123456789ABCDEF
U+244x


참조

[1] 웹사이트 OCR Document https://dev.havenond[...]
[2] 웹사이트 Supported Media Formats https://dev.havenond[...]
[3] 서적 The history of OCR, optical character recognition https://archive.org/[...] Recognition Technologies Users Association
[4] 서적 Advanced Image-Based Spam Detection and Filtering Techniques https://books.google[...] IGI Global 2017
[5] 논문 On a Type-Reading Optophone 1914-07-01
[6] 간행물 The History of OCR
[7] 웹사이트 Extracting text from images using OCR on Android https://community.ha[...] 2015-06-27
[8] 웹사이트 [Tutorial] OCR on Google Glass https://community.ha[...] 2014-10-23
[9] 서적 Wireless Communications, Networking and Applications: Proceedings of WCNA 2014 https://books.google[...] Springer 2015
[10] 웹사이트 [javascript] Using OCR and Entity Extraction for LinkedIn Company Lookup https://community.ha[...] 2014-07-22
[11] 웹사이트 How To Crack Captchas http://www.andrewt.n[...] andrewt.net 2013-06-16
[12] 웹사이트 Breaking a Visual CAPTCHA http://www.cs.sfu.ca[...] Cs.sfu.ca 2013-06-16
[13] 웹사이트 John Resig – OCR and Neural Nets in JavaScript http://ejohn.org/blo[...] Ejohn.org 2013-06-16
[14] 논문 The state of the art in online handwriting recognition
[15] 웹사이트 Optical Character Recognition (OCR) – How it works https://www.nicomsof[...] Nicomsoft.com 2013-06-16
[16] 논문 Survey over image thresholding techniques and quantitative performance evaluation http://webdocs.cs.ua[...] 2015-05-02
[17] 논문 OCR binarisation and image pre-processing for searching historical documents. http://www.rfai.li.u[...] 2015-05-02
[18] 논문 Goal-directed evaluation of binarisation methods. http://heim.ifi.uio.[...] 2015-05-02
[19] 서적 2013 12th International Conference on Document Analysis and Recognition https://www.microsof[...] 2015-05-02
[20] 논문 Word Level Multi-script Identification 1987-05-29
[21] 웹사이트 Basic OCR in OpenCV | Damiles http://blog.damiles.[...] Blog.damiles.com 2008-11-20
[22] 웹사이트 OCR Introduction http://www.dataid.co[...] Dataid.com 2013-06-16
[23] 웹사이트 How OCR Software Works http://ocrwizard.com[...] OCRWizard 2013-06-16
[24] 웹사이트 The basic pattern recognition and classification with openCV | Damiles http://blog.damiles.[...] Blog.damiles.com 2008-11-14
[25] 웹사이트 An Overview of the Tesseract OCR Engine http://tesseract-ocr[...] 2013-05-23
[26] 웹사이트 OCR as a Service: An Experimental Evaluation of Google Docs OCR, Tesseract, ABBYY FineReader, and Transym https://www.research[...] 2016-12
[27] 웹사이트 How the Best OCR Technology Captures 99.91% of Data https://www.bisok.co[...] 2021-05-27
[28] 웹사이트 How does OCR document scanning work? http://www.explainth[...] Explain that Stuff 2013-06-16
[29] 웹사이트 How to optimize results from the OCR API when extracting text from an image? - Haven OnDemand Developer Community https://community.ha[...]
[30] 뉴스 How We Sped Through 900 Pages of Cohen Documents in Under 10 Minutes https://www.nytimes.[...] 2023-06-16
[31] 웹사이트 Train Your Tesseract http://trainyourtess[...] 2018-09-20
[32] 웹사이트 What is the point of an online interactive OCR text editor? - Fenno-Ugrica http://blogs.helsink[...] 2014-02-21
[33] 논문 Detecting Figures and Part Labels in Patents: Competition-Based Development of Image Processing Algorithms 2016-02-20
[34] 웹사이트 Google Books Ngram Viewer https://books.google[...] 2023-07-20
[35] 웹사이트 Code and Data to evaluate OCR accuracy, originally from UNLV/ISRI https://code.google.[...] Google Code Archive
[36] 웹사이트 How Good Can It Get? Analysing and Improving OCR Accuracy in Large Scale Historic Newspaper Digitisation Programs http://www.dlib.org/[...] D-Lib Magazine 2009-04-00
[37] 학회발표 Future Challenges in Handwriting and Computer Applications http://users.erols.c[...] 1987-05-29
[38] 서적 Comparison of Synthesized and Natural Datasets in Neural Network Based Handwriting Solutions https://civilica.com[...] ITCT 2019
[39] 서적 Research and Advanced Technology for Digital Libraries https://books.google[...] Springer 2015
[40] 학술지 Reinventing nonpatent literature for pharmaceutical patenting
[41] 웹사이트 scanno https://www.hoopoes.[...] 2001-05-00
[42] 웹사이트 OCR Document https://web.archive.[...]
[43] 서적 The History of OCR Recognition Technologies Users Association 1982
[44] 서적 Advanced Image-Based Spam Detection and Filtering Techniques https://books.google[...] IGI Global 2017
[45] 잡지 Reading Machine Speaks Out Loud https://books.google[...] 1949-02-00
[46] 뉴스 Washington Daily News & New York Times Washington Daily News & New York Times 1951-04-27
[47] 문서 カーツワイルは書体を選ばないOCR技術の発明者とされることもあるが、1960年代末ごろから同様の技術を開発する企業がいくつか出現している。詳しくは Schantz, ''The History of OCR''; ''Data processing magazine'', Volume 12 (1970), p. 46 を参照
[48] 뉴스 音声ソフトの ScanSoft、競合する Nuance を買収 http://japan.interne[...] japan.internet.com 2005-05-10
[49] 서적 Wireless Communications, Networking and Applications: Proceedings of WCNA 2014 https://books.google[...] Springer 2015-10-28
[50] 웹사이트 Using OCR and Entity Extraction for LinkedIn Company Lookup https://web.archive.[...] 2014-07-22
[51] 웹사이트 How To Crack Captchas http://www.andrewt.n[...] andrewt.net 2006-06-28
[52] 웹사이트 Breaking a Visual CAPTCHA http://www.cs.sfu.ca[...] Cs.sfu.ca 2002-12-10
[53] 웹사이트 John Resig – OCR and Neural Nets in JavaScript http://ejohn.org/blo[...] Ejohn.org 2009-01-23
[54] 학술지 The state of the art in online handwriting recognition https://semanticscho[...]
[55] 웹사이트 Optical Character Recognition (OCR) – How it works https://www.nicomsof[...] Nicomsoft.com
[56] 학술지 Survey over image thresholding techniques and quantitative performance evaluation http://webdocs.cs.ua[...] 2004
[57] 학술지 OCR binarisation and image pre-processing for searching historical documents. http://www.rfai.li.u[...] 2007
[58] 학술지 Goal-directed evaluation of binarisation methods. http://heim.ifi.uio.[...] 1995
[59] 학술지 Image binarisation for end-to-end text understanding in natural images. https://www.microsof[...] 2013
[60] 학술지 Word Level Multi-script Identification 1987-05-29
[61] 웹사이트 Basic OCR in OpenCV | Damiles http://blog.damiles.[...] Blog.damiles.com 2008-11-20
[62] 웹사이트 OCR Introduction http://www.dataid.co[...] Dataid.com
[63] 웹사이트 How OCR Software Works https://web.archive.[...] OCRWizard
[64] 웹사이트 The basic pattern recognition and classification with openCV | Damiles http://blog.damiles.[...] Blog.damiles.com 2008-11-14
[65] 웹사이트 An Overview of the Tesseract OCR Engine https://web.archive.[...]
[66] 특허 http://patft.uspto.g[...]
[67] 웹사이트 How does OCR document scanning work? http://www.explainth[...] Explain that Stuff 2012-01-30
[68] 웹사이트 How to optimize results from the OCR API when extracting text from an image? - Haven OnDemand Developer Community https://web.archive.[...]
[69] 뉴스 How We Sped Through 900 Pages of Cohen Documents in Under 10 Minutes https://www.nytimes.[...] The New York Times 2019-03-26
[70] 웹사이트 Train Your Tesseract http://trainyourtess[...] 2018-09-20
[71] 웹사이트 What is the point of an online interactive OCR text editor? - Fenno-Ugrica http://blogs.helsink[...] 2020-12-21
[72] 논문 Detecting Figures and Part Labels in Patents: Competition-Based Development of Image Processing Algorithms 2016-02-20
[73] 웹사이트 The Fifth Annual Test of OCR Accuracy http://www.stephenvr[...] 2012-04-27
[74] 웹사이트 How Good Can It Get? Analysing and Improving OCR Accuracy in Large Scale Historic Newspaper Digitisation Programs http://www.dlib.org/[...] D-Lib Magazine 2011-01-05
[75] 논문 Future Challenges in Handwriting and Computer Applications http://users.erols.c[...] 3rd International Symposium on Handwriting and Computer Applications, Montreal, May 29, 1987 2008-10-03
[76] 논문 The State of the Art in On-line Handwriting Recognition http://users.erols.c[...] IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol 12 No 8, August 1990, pp 787-ff 2008-10-03
[77] 웹사이트 http://cusee.net/246[...]

관련 사건 타임라인

( 최근 20개의 뉴스만 표기 됩니다. )



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com